标准化考试的「标准」同样值得警惕
原文:Beware of the Standards, Not Just the Tests (**) - Alfie Kohn
Alfie Kohn 著
2001 年 9 月 26 日
不少知名教育家终于开始对标准化考试表示疑虑——特别是那些以选择题为主的常模参照(norm-referenced)考试;特别是那些高风险的考试(读作利诱和威胁);特别是有联邦政令要求,所有州必须对所有 3-8 年级学生每年开展的测试。尽管越来越多意见领袖意识到,对测试过分狂热着实危害不浅,很少人会对标准化运动表示反对。
学习优先联盟(Learning First Alliance)是一些前沿教育团体的联盟,他们不久之前对考试表达了担忧,但他们是看到民众对考试反对愈演愈烈,进而担心州级的教育标准会被废除,才发表了这一观点。教育周刊(Education Week)的 2001 版年度报告《质量是关键》同样表示担忧,称考试「盖过了标准」,而「没有充分反映」教育标准。有很多重要会议取名为「教育标准:从理论到实践」,和「标准能在教室活下来吗」(没有会议会叫「教室能在标准下活下去吗」或者「教育标准:从屈服到反抗」)。
关于教育标准,有一系列书籍打破了成见,包括 Susan Ohanian 所著的《一刀切不完》(One size fits few)和 Deborah Meier 的《标准能拯救公共教育吗?》。Nel Noddings, Elliots Eisner, James Beane 等一系列知名教育学者,在 Phi Delta Kappan 期刊上,默默表示了警告。除此之外,教育领域似乎达成共识,认为批判考试是允许的,而批判标准则不然。的确,人们会告诫考试反对者,不要混淆考试和标准,好像这两者毫无关联一样。我的观点是,考试和标准有千丝万缕的联系——理论上,考试是标准的履行机制。不仅如此,标准跟考试一样问题重重。
当然,我们应该澄清什么标准是有问题的。教育标准有一个广为接受的区别,与我们讨论相关,那就是结果和内容的区别。结果标准制定了学生表现应该有多好。这种标准在最通用的意义上(我们支持高标准)无可厚非,但也派不上多少用场。具体执行后,结果标准就变成了标准考试的分数线,这就很危险了。很大程度上,结果标准是混淆了难与好,我在之前的文章已经讨论过,在此不赘述了。
相比之下,内容标准是指定老师应该教授什么内容。与其宣称所有标准都十恶不赦,或者认同所有标准,我认为,我们应该根据以下四个方向,来评判特定的标准或框架:
**1. 有多具体?**政策制定者会有很多理由去设定详细的必修课程。他们可能打心底不信任教育者:不少人试图编写不依赖老师水平的培养方案,他们前赴后继,然而收效甚微,而目前的标准化运动只是这个执念的最新体现。此外,他们也可能单纯认为,标准越具体就是越好。实际上,虽然顾客跟服务员详细解释应该怎么做汉堡是有道理的,但宣布所有学生将要学习三角形的周长(以及其他非常具体的话题)并不是最好的,不如提供泛用的指导,帮助学生习得数学家的思考方式。
后者那种标准,如果有实际指导支持,能够帮助学生审慎推理,清晰表达,并乐在其中。然而如果给老师列出长长的必教事实技能清单,则会起到反作用。因此,约翰逊总统任期内的美国教育专员 Harold Howe II,在有人询问国家教育标准时(以及是否应该采取这种标准),将其一生的智慧总结成五个字:「越模糊越好」。
他的这种审慎也应该应用在州级标准上。一方面,思考是繁乱的过程,而深度思考则更加繁乱。另一方面,标准文书则是秩序的代名词。记住这种差别后,你就不会惊讶于真实教室里的这些文书会造成多大伤害了。
有大量研究表明,学生积极计划自己的学习过程,是非常重要的,比如学生提出问题,设立项目等等。但随着教育标准越全面越详细,越来越多的学生(甚至老师)无法主导学习过程,被排除在外,而教学也愈发沦为匆匆讲完大量材料的填鸭。所以,达到这些标准之后,教学反而变蠢了。Howard Gardner 睿智地察觉到,「理解最大的敌人是『教学进度』」。
有人坚持认为,这些事实和技能的清单,并没有规定教师应该如何教授学生;标准应该没有预设教学方法。但这种看法就是胡说八道。如果教学的目标是覆盖材料(而不是揭盖新想法),那么应采用的教学方法也就不言自明了。一些课程框架将教育看作事实的堆砌,由此一些教学技术也就会备受偏好,比如重复的灌输和练习。当然,这种教学方式的背后也有让学生备考的动机,但遵从特定标准的动机同样不可小觑。
有些人真诚相信,若要教得好,就应该遵守什么人制定的某个年级学生必知必会的知识清单,把这些知识教完。但问题不仅在于我和你怎么看这套模式;问题在于这套模式为何能几近垄断美国公立学校的教学。实际上,某一颇带商榷的特定教育哲学,被州级标准推崇,并成为州政府的法律。
2. 有多能被量化? 目前对问责的狂热,非常强调过于具体且非常容易量化的命令。不仅是考试被捆绑到标准上了;这些标准是根据他们的可测试性选出来的。「具体、可衡量的标准」这种短语不仅执迷于卓越,而且执迷于行为主义。说这种话最多的是公司职员和政治家,而不是前沿教育理论领袖,或者认知科学家,从中便可见一二。
我们在讨论这样一种观点,即学习或生活的方方面面,只要不能化作一个数字,其价值就是存疑的。相比之下,能以数字呈现的内容就是科学的,令人安心的;如果数字越来越大,那么我们肯定有所进步。内在动机和智力探索等概念,对于一些人来说难以捉摸,而成绩跟销售业绩与选票一样,能够被计算并制成图表,用来定义成功与失败。
可惜的是,有意义的学习并不沿着单一维度开展,我们也无法精确判断进步。莱斯大学的 Linda McNeil 观察到:「可衡量的结果可能是学习最不紧要的成果。」(这句话应该用 36 号 Helvetica 体打印出来,裱框后钉在这个国家每个学校管理员办公室的墙上)。将学校中的动态描述为某个指标在增长或下降的做法,不仅过度简化,更无法准确描述事情全貌;这种做法是破坏性的,因为它会破坏学校中的动态,使其越来越糟。
考虑 Sandra Stotsky 是马萨诸塞州的教育副专员,她曾评论道:「探索这个词不能放进标准里,因为探索无法被评估」。这个判断当然是错的,因为衡量学生探索质量的办法有很多——除非「评估」这一词被等同于标准化测试了。但让我们暂且假设 Stotsky 女士是对的。假如我们必须作出抉择,是看重课堂中的探索,还是看着衡量和指标呢?大部分深思熟虑的教育家会毫无疑虑地选择前者。显然,衡量文章中分号用了多少次,比衡量学生在论文中探索想法有多深入,是更简单的。因此,侧重于选择可以量化的标准,会让教学变得更平庸。
3. 有多整齐划一?「标准化这个词」听得太多后,我们对第一个词似乎产生了免疫。我们多大程度上相让学生接受标准化教育?在去年秋天的一个国家级会议上,一个顾问满意地宣称,多亏了基于标准的改革,「根据我的经历,这是历史上首次,同一年级的人,在同一学科上,或者在高中教课的老师,感觉到有责任对齐同一目标。」她甚至都觉得没有必要为这一目标辩解,可见现在对一刀切的教育有多接受了。
问题又一次不仅在考试出题上,而且在标准的一致性上。想要保证低收入社区的学生不接受二流教育,这是个值得赞扬的动机。想要保证一个州的学生接受相同的教育,把他们当作互相等同的知识接收者,这就是两码事了。更有问题的做法是分年级的标准。这里,标准制定者不仅认为:「我们希望学生八年级的时候能掌握这些东西。」,而在认为:「我们希望他们在五年级把这个列表上所有东西都学了,在六年级把那个列表上所有东西都学了」,诸如此类。死板地控制教学时机和内容,迫使所有学生以相同节奏学习知识,不仅对学习有负面影响,最终便会导向无谓的失败。
**4. 指南还是命令?**有些标准以指南的形式给出(「看看这样对教学的思考方式能否让你更好教学」),有些标准则以命令的形式给出(「不教这个的话等着瞧」)。几乎所有州都走了后面一条路。他们想要的不仅是控制老师,而且要剥夺校区制定自己课程计划的悠久权利。在美国教育历史上,没有什么学校改革,比现在这套以标准为名开展的运动,更加不民主了。
高风险考试是霸凌的完美体现,这种考试使用粗暴的奖惩手段让人们提升分数。一所教室墙上张贴的讽刺标语反映了其中的逻辑:「打到士气旺」。但如果将标准作为要求执行,标准本身也反映了政策制定者所要施加于教育者和学生的,而非与他们共同合作的。我在此提名一个广泛使用而令人毛骨悚然的奥威尔式用语:「对齐」——我们怎么让老师将他们的教学与州际标准「对齐」?相当多的人,包括一些对高风险考试的批判者,很随意地接受了这种说法,尽管这种说法诉诸于赤裸的权利。「对齐」不在于提升;它在于服从。
作为命令的标准同样反映一种对教育者的羞辱性看法——需要有权威人士告诉他们教书需要教什么(以及怎么教),否则他们就不懂怎么教。尽管的确有很多老师需要帮助,但没人不会抵制州政府去微操他们的课堂教学。有些人会尽其所能去忽视标准,而有人会愤懑地服从。无论如何,控制之下标准的实现是很糟糕的(说起来这也不是件坏事)。其他人,包括我们一些最优秀的教育者,则皱鼻蹙眉,拂袖而去,找个其他的出路去。
基于这四个标准,学科小组(比如数学和英语教师理事会)推广的标准,比州政府颁布的标准,效果要好得多。这当然不意味我们对前者标准的反对都失效了,也不意味着所有州际标准都很差,比如将明尼苏达州的学习档案,和弗吉尼亚州的学习标准比较一下,就可以知道了。(附加:两年后,我作为例子选择这两个州就非常讽刺了,因为新选上的明尼苏达共和党州长任命了新的教育专员,一位基督教保守派,之前就职于……弗吉尼亚州。)
然而,有一股巨大的压力,正催促人们实行这种我认为最糟糕的标准。Chester E. Fnn 和他的同事想让州政府明确「孩子在英语课上应该读那些书,在历史课上应该学什么人物,什么事件,诸如此类」。任何其他的标准都只是「假把式」。支持标准的群体,比如 Achieve 公司(一群公司人员和政治家),会给那些标准不够具体、可量化、统一、或者不必修的州政府打低分。
国家来复枪协会可以出具报告,给那些不够支持拥枪的立法者打低分,而这种报告和那些评价的差别在于,所有人知道这些分数反映的观点是某个实体的,而且是有争议的。相比之下,有人给州政府打低分,认为他们给本地学校董事会太多自治权,或者他们的标准不够符合行为主义学家的标准,他们却要求我们将这种分数认同为客观评估。(可以认为那些年度评估拿到 A 的州政府都应该打 F,或者反过来——或者州政府应该让这种小组给他们评估这些标准和测试策略,然后完全按小组推荐的反过来做)
重要脚注:有些人使用与州级标准不相关的现成考试——比如在加利福尼亚州开展这种考试。从心理测量学的角度来说,这种做法没有道理。而从教学角度来说,比起不符合标准的测试,符合标准的测试恰恰是更糟的。不符合标准的考试很蠢,因为它很不高效,而符合标准的考试是危险的,而这正是因为它是高效的……高效地履行一个可疑的目标。不仅政治家,而且有些测量学专家会忘记,做好一件事不等于做一件有价值的事。如果标准和考试高度契合,创建了一种自上而下,整齐划一,密不透风,「『事实』堆砌」式的学校教育——那么这时候我们就真遇到问题了。
这些测试无疑是最为严峻而又直接的对优质教学的威胁,因此让教育者和学生摆脱这一枷锁,应当成为我们最为优先的任务。但我们不应该将我们的批判局限于考试,毕竟考试背后还耸立着一种更广泛、更错误的教学和学校改革方针。
有些人不同意我的观点,或者比我更喜欢这些标准,我并不烦恼。实际上我很欢迎这些挑战。但是我很烦恼的是这样的讨论太少了,提问题的人很稀有,而很多人根本不质疑按标准教学,就开始讨论怎么按标准教学了。